Machine Learning - L7 Notes

Brief Introduction of Deep Learning (L7)

大致講解 Deep learning，詳細可參考之前筆記 Deep and Structured L1~L2 。

主要如同前面 Logistic Regression 一樣可歸納成三個步驟:

7-4

model 的樣子就像是把很多 neuron 連接在一起成 neural network。
而給出其 network structure 也就定義出它的 function set 。

我們把所有的參數，也就是每個 neuron 的 weights 和 bias 合稱為 $\theta$。

這邊的連接方法為 Fully connected ，兩 layer 間的 neurons 兩兩相連。
Feedforward 則是它傳遞訊息的方式從 input 到 output 是單向的。

7-9

(input 、 output 都是 vector)

我們通常會用矩陣來運算:

7-12

7-14

而對於中間的 hidden layers 就像是在做 feature extractor(提取) ，用來取代之前要對 feature 所做的各種處理或轉換，
最後一層 hidden layers 所產生的 $x$ 就像是新的一組 feature 。

而 output layer 則像是 Multi-class Classifier ，使用 Softmax function ，讓 output 介於 0~1 。

7-15

以手寫辨識的例子來看:

最後 output 所代表的就是此張圖片是某個數字的機率(ex. $y_1$ 為此圖是 1 的機率)。

7-18

同樣用手寫辨識來看，這張圖是 1 ，所以它的 target vector 其中的 $\hat{y_1}$ 是 1 ，其餘是 0 。

接著利用 Cross Entropy 計算這個 function 的好壞。

7-21

而我們的資料當然不只一筆，所以就把每筆資料算出來的 C 相加，這就是我們的 Loss function 。

7-22

找個最好的 function ，方法也就是前面章節所講過的 Gradient Descent。

7-25